智能论文笔记

事后重新标记已成为多进球增强学习（RL）的基础技术。这个想法非常简单：任何任意轨迹都可以看作是达到轨迹最终状态的专家演示。直观地，此程序训练了一个目标条件政策，以模仿次优的专家。但是，模仿与事后重新标签之间的这种联系尚不清楚。现代模仿学习算法是用Divergence最小化的语言描述的，但仍然是一个开放的问题。在这项工作中，我们开发了一个统一的目标，以解释这种联系，从中我们可以从中获得目标条件的监督学习（GCSL）和奖励功能，并从第一原则中获得了事后见解体验重播（她）。在实验上，我们发现，尽管目标条件行为克隆（BC）最近取得了进步，但多进球Q学习仍然可以超越BC样方法。此外，两者的香草组合实际上都损害了模型性能。在我们的框架下，我们研究何时期望卑诗省提供帮助，并从经验上验证我们的发现。我们的工作进一步桥接了目标的目标和生成建模，说明了将生成模型成功扩展到RL的细微差别和新途径。

translated by 谷歌翻译

我们介绍了一种通用方法，通过推断推出了不变性，用于提高具有未知感知变化的部署环境中代理的测试时间性能。通过推动的不变性，不能产生不变性，而不是产生不变性的视觉功能，而是将部署时间转变为无监督的学习问题。这是通过部署一个直接算法的实践中实现的，该算法试图将潜在特征的分布与代理的先前经验匹配，而无需依赖于配对数据。虽然简单，但我们表明这个想法导致各种适应情景的令人惊讶的改进，无需访问部署时间奖励，包括相机姿势和照明条件的更改。结果提出了具有基于图像的图像的机器人环境挑战挑战性的骚扰控制套件。

translated by 谷歌翻译

复杂系统的一个重要特征是具有许多局部最小值和子结构的问题域。生物系统通过根据环境或发育环境在不同子系统之间切换来管理这些局部最小值。遗传算法（GA）可以模仿此切换性能，并提供一种克服问题域复杂性的手段。但是，标准GA需要其他操作员，该操作员将允许以随机方式进行大规模探索。无梯度的启发式搜索技术适合在离散域中为这种单个客观优化任务提供最佳解决方案，尤其是与明显较慢的基于梯度的方法相比。为此，作者从飞行计划域中转向优化问题。作者比较了这种常见的无梯度启发式搜索算法的性能，并提出了气体的变体。还引入了迭代的链接方法（IC）方法，这是通过触发多个局部搜索而不是突变操作员的单数动作来基于传统链接技术的。作者将表明，使用多个本地搜索可以改善本地随机搜索的性能，从而为许多其他问题域提供了足够的机会。据观察，所提出的GA变体在所有基准测试基准中的平均成本最低，包括提出的问题和IC算法的性能优于其成分。

translated by 谷歌翻译

Meta-brain Models: biologically-inspired cognitive agents

Bradly Alicea , Jesse Parent

分类：人工智能

2021-08-31

仅基于神经网络或符号计算的人工智能（AI）系统提出了代表性的复杂性挑战。虽然最小的表示可以产生行业或简单决策等行为输出，但更精细的内部表示可能会提供更丰富的行为。我们建议可以使用称为元模型的计算方法来解决这些问题。元模型是体现的混合模型，其中包括具有不同程度的表示复杂性的分层组件。我们将提出使用专门类型的模型组成的层组合。这种关系模仿了哺乳动物大脑的新皮质 - 丘脑系统关系，而不是使用通用黑匣子方法统一每个组件，它使用了前馈和反馈连接来促进功能通信。重要的是，可以在解剖学上显式建立层之间的关系。这允许可以以有趣的方式将结构特异性纳入模型的功能。我们将提出几种类型的层，这些层可能会在功能上集成到执行独特类型的任务的代理中，从同时执行形态发生和感知的代理到经历形态发生以及同时获得概念表示的代理。我们对元模型模型的方法涉及创建具有不同程度的代表性复杂性的模型，创建分层的元结构结构，模仿生物学大脑的结构和功能异质性，并具有足够灵活的输入/输出方法，以适应认知功能，社交互动，社交互动，社会互动，和自适应行为。我们将通过提出这种灵活和开源方法的开发中的下一步来得出结论。

translated by 谷歌翻译